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La presente invention concerne un procede de conversion d'un signal 
vocal prononce par un locuteur source en un signal vocal cqnverti dont les carac- 
teristiques acoustiques ressemblent a celles d'un locuteur cible ainsi qu'un sys- 
tems mettant en ceuvre un tel procede. 
5 Dans le cadre duplications de conversion de voix, telles que les ser- 

vices vocaux, les applications de dialogue oral homme-machine ou encore la 
synthese vocale de textes, Ie rendu auditif est primordial et, pour obtenir une qua- 
lite acceptable, il convient de bien maTtriser les parametres lies a la prosodie des 
signaux vocaux. 

10 De maniere ciassique, les principaux parametres acoustiques ou pro- 

sodiques modifies lors de precedes de conversion de voix sont les parametres 
relatifs a I'enveloppe spectrale et/ou pour les sons voises faisant intervenir la vi- 
bration des cordes vocales, les parametres relatifs a une structure periodique, 
soit la periode fondamentale dont I'inverse est appele frequence fondamentale 

15 ou « pitch ». 

Les precedes de conversion de voix classiques comprennent en gene- 
ral la determination d'au moins une fonction de transformation de caracteristiques 
acoustiques du locuteur source en caracteristiques acoustiques proches de cel- 
les du locuteur cible, et la transformation d'un signal vocal a convertir par 

20 ('application de cette ou ces fonctions. 

Cette transformation est une operation longue et couteuse en temps 

de calcul. 

En effet, de telles fonctions de transformation sont classiquement 
considerees comme des combinaisons lineaires d'un nombre fini important 
25 d'elements de transformation appliques a des elements representatifs du signal 
vocal a convertir. 

Le but de (Invention est de resoudre ces problemes en definissant un 
procede et un systeme de conversion d'un signal vocal rapide et de bonne quali- 
ty 

30 A cet effet, la presente invention a pour objet un procede de conver- 

sion d'un signal vocal prononce par un locuteur source en un signal vocal conver- 
ti dont les caracteristiques acoustiques ressemblent a celles d'un locuteur cible, 
comprenant : 
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- la determination d'au moins une fonction de transformation de carac- 
teristiques acoustiques du locuteur source en caracteristiques acoustiques pro- 
ches de celles du locuteur cible, a partir d'echantillons vocaux des locuteurs 
source et cible ; et 

5 - la transformation de caracteristiques acoustiques du signal vocal a 

convertir du locuteur source, par I'application de ladite au moins une fonction de 
transformation, 

caracterise en ce que ladite transformation comprend une etape 
duplication uniquement d'une partie determinee d'au moins une fonction de 
1 0 transformation sur ledit signal a convertir. 

Le procede de I'invention permet ainsi de diminuer le temps de calcul 
necessaire a la mise en ceuvre, grace a I'application uniquement d'une partie de- 
terminee d'au moins une fonction de transformation. 

Suivant d'autres caracteristiques de ('invention : 
15 - au moins la determination d'une fonction de transformation com- 

prend une etape de determination d*un modele representant de maniere ponde- 
ree des caracteristiques acoustiques communes des echantillons vocaux du locu- 
teur cible et du locuteur source sur un ensemble fini de composantes de modele, 
et ladite transformation comprend : 
20 " une ©tape d'analyse du signal vocal a convertir, regroupe en tra- 

mes pour obtenir, pour chaque trame d'echantillons des informations relatives 
aux caracteristiques acoustiques ; 

- une etape de determination d'un indice de correspondance entre 
les frames a convertir et chaque composante dudit modele ; et 
25 " une ^ape de selection d'une partie determinee desdites compo- 

santes dudit modele en fonction desdits indices de correspondance, 

ladite etape d'application uniquement d'une partie determinee d'au 
moins une fonction de transformation comprenant I'application auxdites frames a 
convertir de la seule partie de ladite au moins une fonction de transformation cor- 
30 respondant auxdites composantes du modele selectionnees ; 

- il comporte en outre une etape de normalisation de chacun desdits 
indices de correspondance des composantes selectionnees par rapport a la 
somme de tous les indices de correspondance des composantes selectionnees ; 
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- i! comporte en outre une etape de memorisation desdits indices de 
correspondance et de ladite partie determinee desdites composantes de modele, 
realisee avant ladite etape de transformation, laquelle est retardee dans le 
temps ; 

- ladite determination de ladite au moins une fonction de transforma- 
tion comprend : 

- une etape d'analyse des echantilions vocaux des iocuteurs source 
et cible, regroupes en trame pour obtenir des caracteristiques acoustiques pour 
chaque trame d'echantillons d'un Iocuteur ; 

- une etape d'alignement tempore! des caracteristiques acoustiques 
du Iocuteur source avec les caracteristiques acoustiques du Iocuteur cible, cette 
etape etant realisee avant ladite etape de determination d'un modele ; 

- ladite etape de determination d'un modele correspond a la determi- 
nation d'un modele de melange de densites de probabilites gaussiennes ; 

- ladite etape de determination d'un modele comprend : 

- une sous-etape de determination d'un modele correspondant a un 
melange de densites de probabilites gaussiennes, et 

- une sous-etape d'estimation des parametres du melange de densi- 
tes de probabilites gaussiennes a partir de ('estimation du maximum de vraisem- 
blance entre les caracteristiques acoustiques des echantilions des Iocuteurs 4 
source et cible et le modele ; 

- ladite determination d'au moins une fonction de transformation est 
realisee a partir d'un estimateur de la realisation des caracteristiques acoustiques 
du Iocuteur cible sachant les caracteristiques acoustiques du Iocuteur source ; 

- ledit estimateur est forme de Tesperance conditionnelle de la realisa- 
tion des caracteristiques acoustiques du Iocuteur cible sachant la realisation des 
caracteristiques acoustiques du Iocuteur source ; 

- il comporte en outre une etape de synthese permettant de former un 
signal vocal convert! a partir desdites informations acoustiques transformees. 

[.'invention a egalement pour objet un systeme de conversion d'un si- 
gnal vocal prononce par un Iocuteur source en un signal vocal convert! dont les 
caracteristiques acoustiques ressemblent a cedes d'un Iocuteur cible, compre- 
nant : 
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- des moyens de determination d'au moins une fonction de transforma- 
tion des caracteristiques acoustiques du locuteur source en caracteristiques 
acoustiques proches de celles du locuteur cible, a partir d'echantillons vocaux 
des locuteurs source et cible ; et 

5 - des moyens de transformation des caracteristiques acoustiques du 

signal vocal a convertir du locuteur source par Implication de ladite au moins 
une fonction de transformation, 

caracterise en ce que lesdits moyens de transformation sont adaptes 
pour 1'application uniquement d'une partie determinee d'au moins une fonction de 
10 transformation sur ledit signal a convertir. 

Selon d'autres caracteristiques du systeme : 

- lesdits moyens de determination sont adaptes pour la determination 
d'au moins une fonction de transformation a I'aide d'un modele representant de 
maniere ponderee des caracteristiques acoustiques communes des echantillons 

15 vocaux des locuteurs source et cible sur un ensemble fini de composantes, et en 
ce qu'il comporte : 

- des moyens d'analyse dudit signal a convertir, regroupe en tra- 
mes, pour obtenir, pour chaque trame d'echantillons, des informations relatives 
aux caracteristiques acoustiques ; 

20 - des moyens de determination d'un indice de correspondance entre 

les trames a convertir et chaque composante dudit modele ; et 

- des moyens de selection d'une partie determinee desdites compo- 
santes dudit modele en fonction desdits indices de correspondance, 

lesdits moyens d'application etant adaptes pour appliquer uniquement 
25 une partie determinee de ladite au moins une fonction de transformation corres- 
pondent auxdites composantes du modele selectionnees. 

L'invention sera mieux comprise a la lecture de la description qui va 
suivre, donnee uniquement a titre d'exemple et faite en se referant aux dessins 
annexes, sur lesquels : 

- les Figs. 1A et 1B represented un organigramme general du procede 
de l'invention ; et 

- la Fig. 2 represente un schema synoptique d'un systeme mettant en 
oeuvre le procede de l'invention. 



30 
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La conversion de voix consiste a modifier le signal vocal d'un locuteur 
de reference appeie locuteur source, de telle sorte que le signal produit semble 
avoir ete prononce par un autre locuteur, nomme locuteur cible. 

Un tel procede comporte tout d'abord la determination de fonctions de 
5 transformation de caracteristiques acoustiques ou prosodiques, des signaux vo- 
caux du locuteur source en caracteristiques acoustiques proches de celles des 
signaux vocaux du locuteur cible, a partir d'echantillons vocaux prononces par le 
locuteur source et le locuteur cible. 

Plus particulierement, la determination 1 de fonctions de transforma- 
10 tion est realisee sur des bases de donnees d'echantillons vocaux correspondant 
a la realisation acoustique de memes sequences phonetiques, prononcees res- 
pectivement par ies locuteurs source et cible. 

Cette determination est designee sur la figure 1A par la reference nu- 
merique generate 1 et est egalement couramment appelee « apprentissage ». 
15 Le procede comporte ensuite une transformation des caracteristiques 

acoustiques d'un signal vocal a convertir prononce par le locuteur source a I'aide 
de la ou des fonctions determinees precedemment. Cette transformation est de- 
signee par la reference numerique generale 2 sur la figure 1 B. 

En fonction des modes de realisation, differentes caracteristiques 
20 acoustiques sont transformees telles que des caracteristiques d'enveloppe spec- 
trale et/ou de frequence fondamentale. 

Le procede debute par des etapes 4X et 4Y d'analyse d'echantillons 
vocaux prononces respectivement par Ies locuteurs source et cible. Ces etapes 
permettent de regrouper Ies echantillons par trame, afin d'obtenir pour chaque 
25 trame d'echantillons, des informations relatives a i'enveloppe spectrale et/ou des 
informations relatives a la frequence fondamentale. 

Dans le mode de realisation decrit, Ies etapes 4X et 4Y d'analyse sont 
fondees sur I'utilisation d'un modele de signal sonore sous la forme d'une somme 
d'un signal harmonique avec un signal de bruit selon un modele communement 
30 appeie "HNM" (en anglais : Harmonic plus Noise Model). 

Le modele HNM comprend la moderation de chaque trame de signal 
vocal en une partie harmonique representant la composante period ique du si- 
gnal, constitute d'une somme de L sinuso'fdes harmoniques d'amplitude A, et de 
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phase <j)|, et d'une partie bruitee representant le bruit de friction et la variation de 
I'excitation glottale. 

On peut ainsi ecrire : 

s(n)=h(n)+b(n) 

5 avec h(n)= ^A,(n)cos((|) 1 (n)) 

w 

Le terme h(n) represente done ('approximation harmonique du signal 

s(n). 

En outre, le mode de realisation decrit est fonde sur une representa- 
tion de I'enveloppe spectrale par le cepstre discret. 

10 Les eta pes 4X et 4Y comportent des sous-etapes 8X et 8Y d'estima- 

tion, pour chaque trame, de la frequence fondamentale, par exemple au moyen 
d'une methode d'auto correlation. 

Les sous-etapes 8X et 8Y sont chacune suivies d'une sous-etape 10X 
et 10Y d'analyse synchronisee de chaque trame sur sa frequence fondamentale, 

15 qui permet d'estimer les parametres de la partie harmonique ainsi que les para- 
metres du bruit du signal et notamment la frequence maximale de voisement. En 
variante, cette frequence peut etre fixee arbitrairement ou etre estimee par d'au- 
tres moyens connus. 

Dans le mode de realisation decrit, cette analyse synchronisee corres- 
20 pond a la determination des parametres des harmoniques par minimisation d'un 
critere de moindres carres ponderes entre le signal complet et sa decomposition 
harmonique correspondant dans le mode de realisation decrit, au signal de bruit 
estime. Le critere note E est egal a : 
Ti 

E= £w 2 (n)(s(n)-h(n)) 2 
n=-T; 

25 Dans cette equation, w (n) est la fenetre d'analyse et Tj est la periode 

fondamentale de la trame courante. 

Ainsi, la fenetre d'analyse est centree autour de la marque de la pe- 
riode fondamentale et a pour duree deux fois cette periode. 

En variante, ces analyses sont faites de maniere asynchrone avec un 
30 pas fixe d'analyse et une fenetre de faille fixe. 

Les etapes 4X et 4Y d'analyse comportent enfin des sous-etapes 12X 
et 12Y d'estimation des parametres de I'enveloppe spectrale des signaux en utili- 
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sant par exemple une methode de cepstre discret regularise et une transforma- 
tion en echelle de Bark pour reproduce le plus fidelement possible ies proprietes 
de I'oreille humaine. 

Ainsi, Ies eta pes 4X et 4Y d'analyse delivrent respectivement pour Ies 
5 echantillons vocaux prononces par Ies locuteurs source et cible, pour chaque 
trame de rang n d'echantillons des signaux de parole, un scalaire note F n repre- 
sentant la frequence fondamentale et un vecteur note c n comprenant des infor- 
mations d'enveloppe spectrale sous la forme d'une sequence de coefficients 
cepstraux. 

10 Le mode de calcul des coefficients cepstraux correspond a un mode 

operatoire connu de I'etat de la technique et, pour cette raison, ne sera pas decrit 
plus en detail. 

Le procede de I'invention permet done de definir pour chaque trame n 
du locuteur source, un vecteur note x n de coefficients cepstraux c x (n) et la fre- 
1 5 quence fondamentale. 

De maniere similaire, le procede permet de definir pour chaque trame fi 
n de locuteur cible, un vecteur y n de coefficients cepstraux c y (n), ainsi que la fre- 
quence fondamentale. 

Les etapes 4X et 4Y sont suivies d'une etape 18 d'alignement entre le 
20 vecteur source x n et le vecteur cible y n , de maniere a former un appariement en- 
tre ces vecteurs obtenu par un algorithme classique d'alignement tempore! dy- 
namique dit « DTW » (en anglais : Dynamic Time Warping). 

L'etape 18 d'alignement est suivie d'une etape 20 de determination 
d'un modele representant de maniere ponderee les caracteristiques acoustiques 
25 communes du locuteur source et du locuteur cible sur un ensemble fini de com- 
posantes de modele. 

Dans le mode de realisation decrit, il s'agit d'un modele probabiliste 
des caracteristiques acoustiques du locuteur cible et du locuteur source, selon un 
modele note « GMM » de melanges de composantes formees de densites gaus- 
30 siennes. Les parametres des composantes sont estimes a partir des vecteurs 
source et cible contenant, pour chaque locuteur, le cepstre discret. 

De maniere classique, la densite de probability d'une variable aleatoire 
notee de maniere generale p(z), suivant un modele de melange de densites de 
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probabilites gaussiennes GMM s'ecrit mathematiquement de la maniere sui- 
vante : 



1=1 

Q 

avec Y< a i =1. o<ai<1 



5 Dans cette formule, Q designe le nombre de composantes du modele, 

N(z ; p^ 2|) est la densite de probability de la loi normale de moyenne p, et de ma- 
trice de covariance S f et les coefficients cq sont les coefficients du melange. 

Ainsi, le coefficient <Xi correspond a la probability a priori que la. varia- 
ble aleatoire z soit generee par la f me composante gaussienne du melange. 
10 De maniere plus particuliere, l'etape 20 de determination du modele 

comporte une sous-etape 22 de modelisation de la densite jointe p(z) des vec- 
teurs source note x et cible note y, de sorte que : 



T T 
x n ■ y n . 



L'etape 20 comporte ensuite une sous-etape 24 d'estimation de para- 
15 metres GMM (a, p, S) de la densite p(z). Cette estimation peut etre realisee, par 
exemple, a I'aide d'un algorithme classique de type dit "EM" (Expectation - 
Maximisation), correspondant a une methode iterative conduisant a I'obtention 
d'un estimateur de maximum de vraisemblance entre les donnees des echantil- 
ions de parole et le modele de melange de gaussiennes. 
20 La determination des parametres initiaux du modele GMM est obtenue 

a I'aide d'urie technique classique de quantification vectorielle. 

L'etape 20 de determination de modele delivre ainsi les parametres 
d'un melange de densites gaussiennes representatifs des caracteristiques acous- 
tiques communes des echantillons vocaux du locuteur source et du locuteur ci- 
25 ble. 

Le modele ainsi defini forme done une representation ponderee de ca- 
racteristiques acoustiques d'enveloppe spectrale communes des echantillons 
vocaux du locuteur cible et du locuteur source sur I'ensemble fini de composan- 
tes du modele. 
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Le precede comporte ensuite une etape 30 de determination, a partir 
du mod el e et des echantillons vocaux, d'une fonction de transformation de 
I'enveloppe spectrale du signal du locuteur source vers le locuteur cible. 

Cette fonction de transformation est determinee a partir d'un estima- 
teur de la realisation des caracteristiques acoustiques du locuteur cible etant 
donne les caracteristiques acoustiques du locuteur source, forme dans le mode 
de realisation decrit, par I'esperance conditionnelle. 

Pour ceia, Fetape 30 comporte une sous-etape 32 de determination de 
I'esperance conditionnelle des caracteristiques acoustiques du locuteur cible sa~ 
chant les informations caracteristiques acoustiques du locuteur source. L'espe- 
rance conditionnelle est notee F(x) et est determinee a partir des formules sui- 
vantes : 



F(x)=E[y | x]= £ h, Cx)\ju y + -Z yX & **) " 1 (x-p *) ) 



1=1 



avec 



hi(x)= 



i i 

jU J J 



avec 



XX X)> 

i i 

yy 

i 



yx 
E S 



et ju] 



X 



y 



Dans ces equations, hj(x) correspond a la probabilite a posteriori que 
le vecteur source x soit genere par la P me composante du rnodele de melange de 
densites gaussiennes du rnodele, et le terme entre crochets correspond a un 
element de transformation determine a partir du rnodele. On rappelle que y desi- 
gne le vecteur cible. 

La determination de I'esperance conditionnelle permet ainsi d'obtenir 
la fonction de transformation des caracteristiques d'enveloppe spectrale entre le 
locuteur source et le locuteur cible sous la forme d'une combinaison lineaire pon- 
deree d'elements de transformation. 

L'etape 30 comporte egalement une sous-etape 34 de determination 
d'une fonction de transformation de la frequence fondamentale par une mise a 
Techelle de la frequence fondamentale du locuteur source, sur la frequence fon- 
damentale du locuteur cible. Cette etape 34 est realisee de maniere classique a 
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un instant quelconque du procede a I'issue des sous-etapes 8X et 8Y 
d'estimation de la frequence fondamentale. 

En reference a la figure 1B, le procede de conversion comporte en- 
suite la transformation 2 d'un signal vocal a convertir prononce par le locuteur 
5 source, lequel signal a convertir peut etre different des signaux vocaux utilises 
precedemment. 

Cette transformation 2 debute par une etape d'analyse 36 realisee, 
dans le mode de realisation decrit, a I'aide d'une decomposition selon le modele 
HNM similaire a celies realisees dans les etapes 4X et 4Y decrites precedem- 
1 0 merit. Cette etape 36 permet de delivrer des informations d'enveloppe spectrale 
sous la forme de coefficients cepstraux, des informations de frequence fonda- 
mentale ainsi que des informations de phase et de frequence maximale de voi- 
sement. 

Cette etape 36 d'analyse est suivie d'une etape 38 de determination 
1 5 d'un indice de correspondance entre le vecteur a convertir et chaque composante 
du modele. 

Dans le mode de realisation decrit, chacun de ces indices correspond 
a la probability a posteriori de la realisation du vecteur a convertir par chacune 
des differentes composantes du modele, soit au terme h,(x). 
20 Le procede comporte ensuite une etape 40 de selection d'un nombre 

restreint de composantes du modele en fonction des indices de correspondance 
determines a I'etape precedente, lequel ensemble restreint est note S(x). 

Cette etape 40 de selection est mise en ceuvre par une procedure ite- 
rative permettant de retenir un ensemble minimal de composantes, ces compo- 
25 santes etant selectionnees tant que la somme cumulee de leurs indices de cor- 
respondance est inferieure a un seuil predetermine. 

En variante, cette etape de selection comprend la selection d'un nom- 
bre fixe de composantes dont les indices de correspondance sont les plus ele- 
ves. 

30 Dans le mode de realisation decrit, I'etape 40 de selection est suivie 

d'une etape 42 de normalisation des indices de correspondance des composan- 
tes selectionnees du modele. Cette normalisation est realisee par le rapport de 
chaque indice selectionne sur la somme de tous les indices selectionnes. 
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Avantageusement, le precede comporte ensuite une etape 43 de stoc- 
kage des- cornposantes de modeie seiectionnees ainsi que des indices de cor- 
respondance normalises associes. 

Une telle etape 43 de memorisation est particulierement utile dans ie 
5 cas ou ranalyse est realisee en temps differe par rapport au reste de la transfor- 
mation 2, qui permet de preparer efficacement une conversion ulterieure. 

Le precede comporte ensuite une etape 44 d'application partielle de la 
fonction de transformation de I'enveloppe spectrale par Tappiication des seuls 
elements de transformation correspondant aux cornposantes de modeie seiec- 
10 tionnees. Ces seuls elements de transformation selectionnes sont appliques aux 
frames du signal a convertir, afin de reduire le temps necessaire a la mise en 
oeuvre de cette transformation. 

Cette etape 44 d'application correspond a la resolution de r equation 
suivante pour les seules cornposantes seiectionnees de modeie formant 
1 5 I'ensemble restant S(x), de sorte que 

F(x)= X ^^S^)-^")] 

ieS(x) till 

f x hi(x) 
avec Wj (x)= — 

Ainsi, pour une trame donnee, avec p la dimension des vecteurs de 
20 donnees, Q le nombre total de cornposantes et N le nombre de cornposantes 
seiectionnees, I'etape 44 d'application partielle de la fonction de transformation 
se limite a N (P 2 + 1) multiplications, qui se rajoutent aux Q (P 2 + 1) modifications 
permettant de determiner les indices de correspondance, contre deux fois 
Q(P 2 +1). En consequence, la reduction de complexite obtenue est au moins de 
25 I'ordre de Q/(Q+N). 

De plus, dans le cas ou le resuitat des etapes 36 a 42 a ete memorise, 
grace a la realisation de I'etape 43, I'etape 44 d'application de la fonction de 
transformation se limite a N(P 2 +1) operations contre 2Q(P 2 +1), dans l'etat de la 
technique, de sorte que, pour cette etape 44, la reduction du temps de calcul est 
30 de I'ordre de 2Q/N. 
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La qualite de la transformation est cependant preservee par 
I'application des composantes presentant un indice de correspondance eieve 
avec le signal a convertir. 

Le procede comporte ensuite une etape 46 de transformation des ca- 
5 racteristiques de frequence fondamentale du signal vocal a convertir, a I'aide de 
la fonction de transformation par mise a I'echelle determinee a I'etape 34 et reali- 
see selon des techniques classiques. 

De maniere egalement classique, le procede de conversion comporte 
ensuite une etape 48 de synthese du signal de sortie realisee, dans I'exemple 
10 decrit, par une synthese de type HNM qui delivre directement le signal vocal 
convert! a partir des informations d'enveloppe spectrale transformees a I'etape 44 
et des informations de frequence fondamentale delivrees par I'etape 46. Cette 
etape 48 utilise egalement des informations de phase et de frequence maximale 
de voisement delivrees par I'etape 36. 
15 Le procede de conversion de I'invention permet ainsi de realiser une 

conversion de haute qualite avec une faible complexity et done un gain de temps 
de calcul important. 

Sur la figure 2, on a represents un schema synoptique d'un systeme 
de conversion de voix mettant en ceuvre le procede decrit en reference aux figu- 
20 res 1Aet 1B. 

Ce systeme utilise en entree une base de donnees 50 d'echantillons 
vocaux prononces par le locuteur source et une base de donnees 52 contenant 
au moins les m ernes echantillons vocaux prononces par le locuteur cibie. 

Ces deux bases de donnees sont utilisees par un module 54 de de- 
25 termination de fonctions de transformation de caracteristiques acoustiques et du 
locuteur source en caracteristiques acoustiques du locuteur cible. 

Ce module 54 est adapte pour la mise en ceuvre de I'etape 1 telle que 
decrite en reference a la figure 1 et permet done la determination d'au moins une 
fonction de transformation de caracteristiques acoustiques et notamment la fonc- 
30 tion de transformation des caracteristiques d'enveloppe spectrale et la fonction 
de transformation de la frequence fondamentale. 

Notamment, le module 54 est adapte pour la determination de la fonc- 
tion de transformation de I'enveloppe spectrale a partir d'un modele representant 
de maniere ponderee des caracteristiques acoustiques communes des echantil- 



1 er depot 



13 

ions vocaux du locuteur cible et du locuteur source, sur un ensemble fini de com- 
posantes de modeles. 

Le systeme de conversion de voix regoit en entree un signal vocai 60 
correspondant a un signal de parole prononce par le locuteur source et destine a 
5 etre converti. 

Le signal 60 est introduit dans un module 62 d'analyse mettant en oeu- 
vre, par exemple une decomposition de type HNM permettant d'extraire des in- 
formations d'enveloppe spectrale du signal 60 sous la forme de coefficients ceps- 
traux et des informations de frequence fondamentale. Le module 62 delivre ega- 
10 lement des informations de phase et de frequence maximales de voisement ob- 
tenues par Papplication du modele HNM. 

Le module 62 met done en ceuvre I'etape 36 du procede tel decrit pre- 
cedemment 

Eventuel lement, le module 62 est mis en osuvre au prealable et les in- 
15 formations sont stockees pour etre utilisees ulterieurement. 

Le systeme comporte ensuite un module 64 de determination des indi- 
ces de correspondance entre le signal vocal a converter 60 et chaque compc- 
sante du modele. A cet effet, le module 64 regoit les parametres du modele de- 
termine par le module 54. 
20 Le module 64 met done en ceuvre I'etape 38 du procede tel que decrit 

precedemment. 

Le systeme comprend ensuite un modele 65 de selection de compo- 
santes du modele mettant en oeuvre I'etape 40 de procede decrit precedemment 
et permettant la selection de composantes presentant un indice de correspon- 
25 dance traduisant une forte connexite avec le signal vocal a convertir. 

Avantageusement, ce module 65 realise egalement la normalisation 
des indices de correspondance des composantes selectionnees par rapport a 
leur moyenne en mettant en oeuvre I'etape 42. 

Le procede comporte ensuite un module 66 d'application partielle de la 
30 fonction de transformation de Tenveloppe spectrale determinee par le module 54, 
par I'application des seuls elements de transformation selectionnes par le module 
65 en fonction des indices de correspondance. 

Ainsi, ce module 66 est adapte pour la mise en ceuvre de I'etape 44 
duplication partielle de la fonction de transformation, de maniere a delivrer en 
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sortie, des informations acoustiques du locuteur source transformers par les 
seuls elements selectionnes de la fonction de transformation, soit par les compo- 
santes du modele presentant un indice de correspondence eleve, avec les fra- 
mes du signal a convertir 60. Ce module permet done une transformation rapide 
5 du signal vocal a convertir grace a ('application partielle de la fonction de trans- 
formation. 

La qualite de la transformation est preservee par la selection des com- 
posantes du modele presentant un indice eleve de correspondance avec le signal 
a convertir. 

10 Le module 66 est egalement adapte pour realiser une transformation 

des caracteristiques de frequence fondamentale, realisee de maniere classique 
par ['application de la fonction de transformation par mise a I'echelle realisee se- 
lon I'etape 46. 

Le system e comports ensuite un module 68 de synthese recevant en 
15 entree, les informations d'enveloppe spectrale et de frequence fondamentale 
transformees et delivrees par le module 66 ainsi que des informations de phase 
et de frequence maximale de voisement delivrees par le module 62 d'analyse. 

Le module 68 met ainsi en ceuvre I'etape 46 du procede decrit en refe- 
rence a la figure 1 et delivre un signal 70, correspondant au signal vocal 60 du 
20 locuteur source mais dont les caracteristiques d'enveloppe spectrale et de fre- 
quence fondamentale, ont ete modifiees afin d'etre similaires a cedes du locuteur 
cible. 

Le systeme decrit peut etre mis en ceuvre de diverses man teres et no- 
tamment a I'aide de programmes informatiques adaptes et relies a des moyens 
25 materieis d'acquisition sonore. 

Ce systeme peut egalement etre mis en ceuvre sur des bases de don- 
nees determinees afin de former des bases de donnees de signaux convertis 
prets a etre utilises. 

Notamment, ce systeme peut etre mis en ceuvre dans une premiere 
30 phase de fonctionnement afin de delivrer, pour une base de donnees de si- 
gnaux, des informations relatives aux composantes du modele selectionnees 
ainsi qu'a leurs indices de correspondance respectifs, ces informations etant 
alors memorisees. 
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Les modules 66 et 68 du system e, sont mis en oeuvre ulterieurement a 
la demande, pour generer un signal vocal de synthese en utilisant les signaux 
vocaux a convertir et les informations relatives aux composantes selectionnees et 
a leurs indices de correspondence afin d'obtenir une reduction maximale du 
5 temps de calcul. 

En fonction de la complexite des signaux et de la qualite souhaitee, le 
procede de ('invention et le systeme correspondant peuvent egalement etre mis 
en oeuvre en temps reel- 
En variante, le procede de ('invention et le systeme correspondant sont 
10 adaptes pour la determination de plusieurs fonctions de transformation. Par 
exemple, une premiere et seconde fonctions sont determinees pour la transfor- 
mation respectivement des parametres d'enveloppe spectrale et des parametres 
de frequence fondamentale des trames a caractere voise et une troisieme fonc- 
tion est determinee pour la transformation des trames a caractere non voise. 
15 Dans un tel mode de realisation, il est done prevu une etape de sepa- 

ration, dans le signal vocal a convertir, des trames voisees et non voisees et une 
ou plusieurs eta pes de transformation de chacun de ces ensembles de trames. ■? 

Dans le cadre de Pinvention, une seule ou plusieurs des fonctions de 
transformation est appliquee partiellement de maniere a dimmuer le temps de 
20 traitement. 

Par ailleurs, dans I'exemple decrit, la conversion de voix est realisee 
par transformation des caracteristiques d'enveloppe spectrale et des caracteristi- 
ques de frequence fondamentale de maniere separee, seule la fonction de trans- 
formation de Penveloppe spectrale etant appliquee partiellement En variante, 
25 plusieurs fonctions de transformation de differentes caracteristiques acoustiques 
et/ou de transformation simultanees de plusieurs caracteristiques acoustiques 
sont determinees et au moins I'une de ces fonctions de transformation est appli- 
quee partiellement. 

De maniere generate, le systeme est adapte pour la mise en ceuvre de 
30 toutes les etapes du procede decrit en reference aux figures 1 A et 1B. 

Bien entendu, d'autres modes de realisation que ceux decrits, peuvent 
etre envisages. 

Notamment, les modeles HNM et GMM- peuvent etre remplaces par 
d'autres techniques et modeles connus de Phomme de Part. Par exemple, 
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I'analyse est realisee a I'aide de techniques dites LPC (Linear Predictive Co- 
ding), de modeles sinusoidaux ou MBE (Multi Band Excited), ies parametres 
spectraux sont des parametres dits LSF (Line Spectrum Frequencies), ou encore 
des parametres lies aux formants ou a un signal glottique. En variante, le modele 
5 GMM est remplace par une quantification vectorielle floue (Fuzzy VQ.). 

En variante, Pestimateur mis en ceuvre lors de I'etape 30 peut etre un 
critere de maximum a posteriori, dit "MAP" et correspondant a la realisation du 
calcul de I'esperance uniquement pour le modele representant le mieux le couple 
de vecteurs source-cible. 

10 Dans une autre variante, ia determination d'une fonction de 

transformation est realisee a I'aide d'une technique dite des moindres carres au 
lieu de I'estimation de la densite jointe decrite. 

Dans cette variante, la determination d'une fonction de transformation 
comprend la modelisation de la densite de probability des vecteurs source a 

15 I'aide d'un modele GMM puis la determination des parametres du modele a I'aide 
d'un algorithme EM. La modelisation prend ainsi en compte des segments de 
parole du locuteur source dont Ies correspondants prononces par le locuteur cible 
ne sont pas disponibles. 

La determination comprend ensuite la minimisation d'un critere des 

20 moindres carres entre parametres cible et source pour obtenir la fonction de 
transformation. II est a noter que I'estimateur de cette fonction s'exprime toujours 
de la meme maniere mais que Ies parametres sont estimes differemment et que 
des donnees supplementaires sont prises en compte. 



1er depot 



17 

REVENDICATIONS 

1 . Precede de conversion d'un signal vocal (60) prononce par un locu- 
teur source en un signal vocal convert! (70) dont ies caracteristiques acoustiques 
ressemblent a celies d'un locuteur cible, cornprenant : 
5 - la determination (1) d'au moins une fonction de transformation de ca- 

racteristiques acoustiques du locuteur source en caracteristiques acoustiques 
proches de celies du locuteur cible, a partir d'echantillons vocaux des Iocuteurs 
source et cible ; et 

- la transformation (2) de caracteristiques acoustiques du signal vocal 
10 a convertir du locuteur source, par Fapplication de ladite au moins une fonction 

de transformation, 

caracterise en ce que ladite transformation (2) comprend une etape 
(44) d'application uniquement d'une partie determinee d'au moins une fonction de 
transformation sur ledit signal a convertir. 

15 2. Procede selon la revendication 1, caracterise en ce qu'au moins la 

determination (1) d'une fonction de transformation comprend une etape (20) de 
determination d'un modeie representant de maniere ponderee des caracteristi- 
ques acoustiques communes des echantillons vocaux du locuteur cible et du lo- 
cuteur source sur un ensemble fini de composantes de modeie, et en ce que la- 

20 dite transformation (2) comprend : 

- une etape (36) d'analyse du signal vocal a convertir, regroupe en 
trames pour obtenir, pour chaque trame d'echantillons des informations relatives 
aux caracteristiques acoustiques ; 

- une etape (38) de determination d'un indice de correspondance entre 
25 les trames a convertir et chaque composante dudit modeie ; et 

- une etape (40) de selection d'une partie determinee desdites compo- 
santes dudit modeie en fonction desdits indices de correspondance, 

ladite etape (44) d'application uniquement d'une partie determinee 
d'au moins une fonction de transformation cornprenant Papplication auxdites tra- 
30 mes a convertir de la seule partie de ladite au moins une fonction de transforma- 
tion correspondant auxdites composantes du modeie sefectionnees. 

3. Procede selon ia revendication 2, caracterise en ce qu'il comporte 
en outre une etape (42) de normalisation de chacun desdits indices de corres- 
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pondance des composantes selectionnees par rapport a la somme de tous les 
indices de correspondance des composantes selectionnees. 

4. Precede selon Tune quelconque des revendications 2 et 3, caracte- 
rise en ce qu'il comporte en outre une etape (43) de memorisation desdits indices 

5 de correspondance et de ladite partie determinee desdites composantes de mo- 
dele, realisee avant ladite etape (44) de transformation, laquelle est retardee 
dans le temps. 

5. Procede seion I'une quelconque des revendications 2 a 4, caracteri- 
se en ce que ladite determination (1) de ladite au moins une fonction de trans- 
it) formation comprend : 

- une etape (4X, 4Y) d'analyse des echantillons vocaux des locuteurs 
source et cible, regroupes en trame pour obtenir des caracteristiques acoustiques 
pour chaque trame d'echantiilons d'un locuteur ; 

- une etape (18) d'alignement temporel des caracteristiques acousti- 
15 ques du locuteur source avec les caracteristiques acoustiques du locuteur cible, 

cette etape (18) etant realisee avant ladite etape (20) de determination d'un mo- 
dele. 

6. Procede selon I'une quelconque des revendications 2 a 4, caracteri- 
se en ce que ladite etape (20) de determination d'un modele correspond a la 

20 determination d'un modele de melange de densites de probabilites gaussiennes. 

7. Procede selon la revendication 6, caracterise en ce que ladite etape 
de determination (20) d'un modele comprend : 

- une sous-etape (22) de determination d'un modele correspondant a 
un melange de densites de probabilites gaussiennes, et 

25 " une sous-etape (24) d'estimation des parametres du melange de 

densites de probabilites gaussiennes a partir de ('estimation du maximum de 
vraisemblance entre les caracteristiques acoustiques des echantillons des locu- 
teurs source et cible et le modele. 

8. Procede selon I'une quelconque des revendications 1 a 7, caracteri- 
30 se en ce que ladite determination (1) d'au moins une fonction de transformation 

est realisee a partir d'un estimateur de la realisation des caracteristiques acousti- 
ques du locuteur cible sachant les caracteristiques acoustiques du locuteur 
source. 
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9. Procede seion la revendication 8, caracterise en ce que ledit estima- 
te ur est forme de I'esperance conditionnelie de la realisation des caracteristiques 
acoustiques du locuteur cibie sachant la realisation des caracteristiques acousti- 
ques du locuteur source. 
5 10. Procede selon Tune quelconque des revendications 1 a 9, caracte- 

rise en ce quMI comporte en outre une etape (48) de synthese permettant de for- 
mer un signal vocal convert! a partir desdites informations acoustiques transfer- 
mees. 

11. Systeme de conversion d'un signal vocal (60) prononce par un lo- 
10 cuteur source en un signal vocal converti (70) dont les caracteristiques acousti- 
ques ressemblent a celles d'un locuteur cible, comprenant : 

- des moyens (56) de determination d'au moins une fonction de trans- 
formation des caracteristiques acoustiques du locuteur source en caracteristiques 
acoustiques proches de celles du locuteur cible, a partir d'echantillons vocaux 

15 des iocuteurs source et cible ; et 

- des moyens (66) de transformation des caracteristiques acoustiques 
du signal vocal a convertir (60) du locuteur source par Implication de ladite au 
moins une fonction de transformation, 

caracterise en ce que lesdits moyens (66) de transformation sont 
20 adaptes pour implication uniquement d'une partie determinee d'au moins une 
fonction de transformation sur ledit signal a convertir (60). 

12. Systeme selon fa revendication 11, caracterise en ce que lesdits 
moyens (54) de determination sont adaptes pour la determination d'au moins une 
fonction de transformation a I'aide d'un modeie representant de maniere ponde- 

25 ree des caracteristiques acoustiques communes des echantillons vocaux des 
Iocuteurs source et cible sur un ensemble fini de composantes, et en ce qu'il 
comporte : 

- des moyens (62) d'analyse dudit signal a convertir (60), regroupe en 
trames, pour obtenir, pour chaque trame d'echantillons, des informations relatives 

30 aux caracteristiques acoustiques ; 

- des moyens (64) de determination d'un indice de correspondance en~ 
tre les trames a convertir et chaque composante dudit modeie ; et 

- des moyens (65) de selection d'une partie determinee desdites com- 
posantes dudit modeie en fonction desdits indices de correspondance, 
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lesdits moyens (66) d'application etant adaptes pour appliquer uni- 
quement une partie determinee de ladite au moins une fonction de transformation 
correspondant auxdites composantes du modele selectionnees. 
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